AMD GPU Pytorch 配置
安装AMD显卡驱动
sudo apt update |
配置环境
# 需要额外加一行参数 |
重启然后验证
reboot |
配置torch
conda create -n py39 python=3.9 |
测试
import torch |
测试速度
import torch |
似乎第一次需要初始化,耗时较长,3.0左右
第二次耗时在0.0002左右
docker 配置
由于 pip 安装的backward慢,且docker中 apex、deepspeed库更容易安装,所以使用docker安装
docker pull rocm/pytorch:latest |
配置ssh 登录(可选)
配置参考docker/docker ssh远程连接篇
重新启动
docker run -d --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 32G --name torch20_ssh -p 6606:22 --mount type=bind,source=/ganzhi/ssd/data,target=/data6 pytorch2-0:ssh /usr/sbin/sshd -D |
torch2.0 依赖安装(可选)
先在/etc/apt/source.list
加入以下内容
deb http://apt.llvm.org/focal/ llvm-toolchain-focal-13 main |
然后执行以下shell命令
sudo apt update |
解决torch.compile报错
SystemError: <built-in function load_binary> returned NULL without setting an exception |
export ROCM_PATH=/opt/rocm-5.4.2 |
解决找不到cmath.h
sudo apt install libstdc++-12-dev |
torch等rocm相关包手动安装
安装依赖 , 安装apex必备sudo apt install rocm-dkms rocm-dev rocm-libs miopen-hip miopengemm hipsparse rccl rocthrust hipcub roctracer-dev
安装rocm-dkms可以安装上rocm-clang
安装torchaudiogit clone https://github.com/pytorch/audio.git
cd audio
python setup.py install
版本依赖解决
指定版本如:sudo apt install rocm-dev5.2.4
sudo amdgpu-install --usecase=rocm,hip,mllib --no-dkms --rocmrelease=5.2.4
最好不要手动指定,amdgpu-install已经包含了版本信息
依赖问题dpkg faild to overwrite ….
sudo dpkg -P xxx |
tensorflow 安装
#卸载旧版本 |
docker 方式安装docker pull rocm/tensorflow:latest
docker run -it --network=host --device=/dev/kfd --device=/dev/dri \
--ipc=host --shm-size 16G --group-add video --cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined rocm/tensorflow:latest
两种方式都报错tensorflow.python.framework.errors_impl.UnknownError: Failed to query available memory for GPU 0
参考官网重新安装
官网地址: https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/quick-start.html
安装rocmwget https://repo.radeon.com/amdgpu-install/6.4/ubuntu/jammy/amdgpu-install_6.4.60400-1_all.deb
sudo apt install ./amdgpu-install_6.4.60400-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME # Add the current user to the render and video groups
sudo apt install rocm
按照官网不需要安装hip,mllib,节约了一半内存
安装dkmssudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms
安装tensorflowpip install tensorflow-rocm==2.18.1 -f https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4/ --upgrade
重启reboot
此方式测试成功,推测原因是安装了dkms或者是没有安装hip